Uma abordagem baseada em gênero para coleta temática de páginas da web

نویسنده

  • Guilherme Tavares de Assis
چکیده

Focused crawlers have as their main goal to crawl pages that are relevant to a specific topic or user interest, playing an important role for a great variety of applications. In general, they work by trying to find and crawl all kinds of pages deemed as related to an implicitly declared topic. However, users are often not simply interested in any document about a topic, but instead they may want only documents of a given type or genre on that topic to be retrieved. In this thesis, we describe an approach to focused crawling that exploits not only contentrelated information but also genre information present in Web pages to guide the crawling process. This approach has been designed to address situations in which the specific topic of interest can be expressed by specifying two sets of terms, the first describing genre aspects of the desired pages and the second related to the subject or content of these pages. Moreover, our approach does not require training or any kind of preprocessing. The effectiveness, efficiency and scalability of the proposed approach are demonstrated by a set of experiments involving the crawling of pages related to syllabi of computer science courses, job offers in the computer science field and sale offers of computer equipments. These experiments show that focused crawlers constructed according to our genre-aware approach achieve levels of F1 superior to 88%, requiring the analysis of no more than 60% of the visited pages in order to find 90% of the relevant pages. In addition, we experimentally analyze the impact of term selection on our approach by varying the number of genre and content terms used to guide a crawling process and evaluate a proposed strategy for semi-automatic generation of such terms. This analysis shows that a small set of terms selected by an expert is usually enough to produce good results and that such a strategy is very effective in supporting the task of selecting the sets of terms required to guide a crawling process using our approach.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Um dos problemas da extração de dados na web é a remoção de ruídos existentes nas páginas. Esta tarefa busca identi car todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruídos pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de...

متن کامل

Uma Abordagem para Armazenamento de Dados Semi-Estruturados em Bancos de Dados Relacionais

This paper presents an approach to storing semistructured data in relational databases. We focus on semistructured data as extracted from Web pages by a tool called DEByE (Data Extraction By Example), and organized according to its data model, the DEByE Object Model (DEByE-OM). The approach presented here consists in representing the structure of objects extracted by DEByE by a relational schem...

متن کامل

Uma Experiência com Engenharia de Requisitos baseada em Modelos de Processos

A engenharia de requisitos consiste em “um processo sistemático de desenvolvimento de requisitos através de um processo iterativo de análise do problema, documentação das observações resultantes e verificação acerca da precisão de entendimento” [1]. É uma atividade cujo sucesso depende diretamente da realização de uma comunicação eficaz. Diante disto, consideramos a modelagem de processos de ne...

متن کامل

Modularizando Modelos i*: uma Abordagem baseada em Transformação de Modelos

A Engenharia de Requisitos (ER) é uma atividade chave em quase todo processo de engenharia de software. i* é uma abordagem orientada a metas bastante adotada na comunidade de ER, pois descreve o sistema de software e seu ambiente em termos de atores e suas dependências. Apesar do i* oferecer uma rica notação que permite definir o raciocínio de como os requisitos são alcançados, não há uma siste...

متن کامل

Uma Abordagem para Engenharia de Requisitos Baseada em Modelos no Domínio de Software Embarcado

Resumo. Este artigo apresenta uma abordagem para engenharia de requisitos orientada a modelos para o domínio de software embarcado. Para suportar a modelagem e a gerência dos requisitos são utilizadas as linguagens de modelagem UML, SysML e o perfil MARTE, todos padrões da OMG. Desta forma, a abordagem permite a completa modelagem de requisitos funcionais e não funcionais frequentes no domínio ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008